@MastersThesis{Makiyama:2015:CaStSD,
author = "Makiyama, Vitor Hirota",
title = "Text mining applied to SQL queries: a case study for SDSS
SkyServer",
school = "Instituto Nacional de Pesquisas Espaciais (INPE)",
year = "2015",
address = "S{\~a}o Jos{\'e} dos Campos",
month = "2015-09-21",
keywords = "text mining, SQL, KDD, SDSS, minera{\c{c}}{\~a}o de texto.",
abstract = "SkyServer, the Internet portal for the Sloan Digital Sky Survey
(SDSS) catalog, provides a set of tools that allows data access
for astronomers and scientific education. One of the available
interfaces allows users to enter ad-hoc SQL statements to query
the catalog, and has logged over 280 million queries since 2001.
To assess and investigate usage behavior, log analyses were
performed after the 5\$^{th}\$ and 10\$^{th}\$ year of the
portal being in production. Such analyses, however, focused on the
HTTP access, and just simple information for the database usage.
This work aims to apply text mining techniques over the SQL logs
to define a methodology to parse, clean and tokenize statements
into an intermediate numerical representation for data mining and
knowledge discovery, which can provide deeper analysis over SQL
usage, and also has a number of foreseen applications in database
optimization and improving user experience. RESUMO: SkyServer, o
portal de Internet para o cat{\'a}logo \emph{Sloan Digital Sky
Survey} (SDSS), fornece um conjunto de ferramentas que permitem
acesso a dados para astr{\^o}nomos e para educa{\c{c}}{\~a}o
cient{\'{\i}}fica. Uma das interfaces dispon{\'{\i}}veis
permite a inser{\c{c}}{\~a}o de instru{\c{c}}{\~o}es SQL
ad-hoc para consultar o cat{\'a}logo, e j{\'a} recebeu mais de
280 milh{\~o}es de consultas desde 2001. Para avaliar e
investigar o comportamento de uso, an{\'a}lises de log foram
realizadas ap{\'o}s o 5\$^{o}\$ e 10\$^{o}\$ ano de vida do
portal. Tais an{\'a}lises, no entanto, focaram no acesso HTTP, e
apenas informa{\c{c}}{\~o}es b{\'a}sicas de
utliza{\c{c}}{\~a}o do banco de dados. Este trabalho tem por
objetivo aplicar t{\'e}cnicas de minera{\c{c}}{\~a}o de texto
sobre os logs SQL com o intuito de definir uma metodologia para
analisar, limpar e dividir em s{\'{\i}}mbolos tais
declara{\c{c}}{\~o}es em uma representa{\c{c}}{\~a}o
num{\'e}rica intermedi{\'a}ria para posterior
minera{\c{c}}{\~a}o de dados e extra{\c{c}}{\~a}o de
conhecimento; possibilitando an{\'a}lises mais profundas sobre o
uso de SQL, e tamb{\'e}m aplica{\c{c}}{\~o}es previstas em
otimiza{\c{c}}{\~a}o de banco de dados e para melhora de
experi{\^e}ncia de usu{\'a}rio.",
committee = "Vijaykumar, Nandamudi Lankalapalli (presidente) and Santos, Rafael
Duarte Coelho dos (orientador) and Gomes, Karine Reis Ferreira and
Queiroz, Gilberto Ribeiro de and Musa, Daniela Leal",
copyholder = "SID/SCD",
englishtitle = "Minera{\c{c}}{\~a}o de texto aplicado a consultas SQL: um estudo
de caso para SDSS SkyServer",
language = "en",
pages = "75",
ibi = "8JMKD3MGP3W34P/3K6JNQ8",
url = "http://urlib.net/ibi/8JMKD3MGP3W34P/3K6JNQ8",
targetfile = "publicacao.pdf",
urlaccessdate = "08 maio 2024"
}